字节跳动与清华:DAPO系统提升AI推理能力
这项由ByteDance Seed、清华大学智能产业研究院、香港大学以及清华AIR-ByteDance联合实验室的研究团队开发的突破性成果发表于2025年3月,论文全称为《DAPO: An Open-Source LLM Reinforcement Learn
这项由ByteDance Seed、清华大学智能产业研究院、香港大学以及清华AIR-ByteDance联合实验室的研究团队开发的突破性成果发表于2025年3月,论文全称为《DAPO: An Open-Source LLM Reinforcement Learn
在人工智能技术快速迭代发展的背景下,大语言模型(LLMs)已成为自然语言处理与生成领域的核心技术。然而,将这些模型与人类偏好精确对齐并增强其复杂推理能力的挑战,促使研究者开发了一系列复杂的强化学习(RL)技术。DAPO(解耦裁剪和动态采样策略优化,Decoup
近日,清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果:DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。这是一个可实现大规模 LLM